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摘要 : 科学 研究 中 对 虚无 假设 检验 (NHST: null hypothesis significance testing) 以 及 p 值 
的 误 用 、 滥 用 已 经 相当 严重 。NHST 是 Fisher 显著 性 检验 和 N-P 式 假设 检验 的 杂 合体 ， 但 
它 又 是 如 何 杂 合 的 , 在 计算 步骤 上 如 何 体现 ? NHST 和 op 值 计 算 的 逻辑 缺陷 在 哪里 ? 这些 问 
题 并 没有 详尽 的 、 通 俗 的 解答 。 明 确 地 阐述 Fisher 显著 性 检验 、N-P 式 假设 检验 、NHST 的 
步骤 并 加 以 分 析 和 比较 ， 辅 之 以 典型 示例 进行 NHST 和 op 值 计 算 的 逻辑 缺陷 分 析 ， 能 够 给 
未 在 统计 学 领域 深耕 的 经 验 研究 者 提供 一 定 的 启发 。 
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Analysis of Logical Defects in Null Hypothesis Significance Test and 
p Value Calculation 
Jiang Hongbing | Gao Lin Xiang Yulin Zhang Chenxi 
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Abstract: The misuse and abuse of NHST (null hypothesis significance test) and p value are 
quite serious in scientific research. NHST is a hybrid of Fisher s significance test and N-P 
hypothesis test. But how is it mingled and how is it reflected in the calculation steps? Where 
are the logical flaws in NHST and p value calculations? There are no detailed and simple answers 
to these questions. Expounding, analyzing and comparing the steps of Fisher’ s significance 
test, N-P hypothesis test and NHST clearly, combined with a typical example for the logical 
defect analysis of NHST and p-value calculations, can provide some inspiration for the empirical 
researchers who are not deeply involved in the field of statistics. 
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1 引言 


经 验 研 究 中 占 主导 地 位 的 研究 策略 ， 假 说 演绎 法 (hypothetico-deductive 
method) ,一 般 从 研究 问题 出 发 ， 综述 相关 文献 和 理论 ， 讨 论 有 助 于 回答 研究 问 
题 的 理论 假设 ， 进 而 从 理论 假设 中 推导 出 研究 假设 Chypothesis) ; 接着 进行 研 
究 设 计 《〈 选 取 或 开发 构 念 测量 工具 ， 设 计数 据 收集 方法 和 数据 分 析 方 法 ) ; 之 后 
进行 实际 数据 收集 、 预 处 理 、 数 据 分 析 、 解 读 ， 最 后 进行 总 结 ， 撰 写 报 告 +。 其 
中 ， 一 个 核心 环节 是 虚无 假设 检验 2 3 。 一 般 而 言 ， 研 究 假 设 作 为 备 择 假设 出 现 
在 虚无 假设 检验 中 , 在 虚无 假设 检验 过 程 中 研究 者 希望 p 值 小 于 某 个 规定 的 数值 
《如 0.05、0. 001 等 ) ， 以 拒绝 虚无 假设 ， 支 持 研 究 假设 。 但 由 于 研究 者 错误 地 
将 p 值 作为 代表 证 据 的 强度 ,在 追求 论文 发 表 的 过 程 中 , 他 们 往往 会 忽视 论文 内 
容 的 真实 性 ， 从 而 导致 发 表 偏 位 。 因 此 ,一些 期 刊 明确 要 求 禁止 将 p 值 作为 衡量 
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研究 合理 性 的 唯一 标准 。 例 如 ，《 美 国 公共 健康 杂志 》 “AJPF) 从 1983 年 起 就 
要 求 投稿 者 删除 所 有 p 值 , 否则 就 请 转投 其 他 杂志 ;《 流 行 病 学 》(Epidemiology) 
在 1990 年 创刊 之 初 也 公开 声明 : “作者 向 本 刊 投稿 时 ， 若 忽略 显著 性 检验 ， 将 
有 助 于 提高 稿件 被 录用 的 可 能 性 …… 我 们 根本 就 不 采用 这 一 方法 ”*。2016 F, 
美国 统计 学 会 声明 了 关于 p 值 的 6 个 原则 5 。 虽然 这 6 个 原则 是 统计 学 家 的 老生 
常 谈 , 但 是 , 这 是 一 个 国际 上 极 具 影响 力 的 统计 学 组 织 第 一 次 为 p 值 的 问题 发 表 
声明 。 不 久之 后 ， 美 国政 治学 顶级 学 术 期 刊 《政治 分 析 》 (Political Analysis) 
在 2018 年 发 表 声 明 ， 以 “p 值 本 身 无 法 提供 支持 相关 模式 或 假说 之 证 据 ” 为 由 
宣布 禁用 p 值 。 可 见 ， 科 学 研究 中 对 虚无 假设 检验 以 及 p 值 的 误 用 、 滥 用 已 经 相 
yego, 

吕 小 康 (2014) “认为 NHST Æ Fisher 显著 性 检验 和 Neyman-Pearson (UJ 
下 称 二 人 为 N-P) 式 假设 检验 的 杂 合 体 ， 它 既 不 完全 是 Fisher 显著 性 检验 ， 也 不 
完全 是 N-P 式 假 设 检验 ， 它 是 杂 合 实用 性 与 数学 之 美的 折衷 体现 。 但 是 Fisher 
显著 性 检验 和 N-P 式 假设 检验 是 怎么 杂 合 的 ? 这 种 杂 合 在 计算 步骤 上 是 如 何 体 
现 的 ? ENSE (2014) 对 此 未 作 详尽 的 回答 。 另 外 ,在 进行 虚无 假设 检验 的 过 程 
H, p 值 的 应 用 也 备 受 和 争议 ， 究 竟 是 p 值 被 我 们 误 用 了 ， 还 是 其 计算 本 身 就 存在 
逻辑 缺陷 ? 郝 丽 等 2016) ”的 观点 是 p 值 被 误 用 了 ， 其 误 用 的 原因 ， 一 是 ， 将 
p 值 简化 为 “p 值 是 原 假 设 为 真 的 概率 ”， 即 在 NHST 中 ，p 值 与 N-P 式 假 设 检 
验 中 的 g 值 是 “等 价 的 ”4 。 二 是 ， 大 多 研究 都 是 先 “ 按 “ 原 假 设 为 真 ”推断 至 
“ 备 择 假设 为 假 ”， 再 将 p 值 是 原 假 设 为 真 的 概率 ”引申 到 p 值 是 备 择 假设 
为 假 的 概率 ””， 也 就 是 说 ，p 值 本 身 只 是 用 于 测量 原 假设 的 证 据 ， 但 是 大 多 学 
者 认为 p 值 可 提供 足够 的 证 据 对 研究 假设 ( 备 择 假设 ) 进行 判断 。 另 外 一 些 学 者 
则 认为 p 值 计算 本 身 也 是 有 逻辑 缺陷 的 ， 例 如 Lindley (1993) “指出 由 于 设想 
的 试验 方案 不 同 ，p 值 的 计算 结果 也 可 能 不 同 。 

综 上 所 述 , Fisher 显著 性 检验 与 N-P 式 假设 检验 的 不 合理 杂 合 造成 了 NHST 
的 逻辑 缺陷 ， 这 也 是 p 值 被 误 读 或 误 用 的 原因 , 另外 p 值 本 身 也 存在 计算 上 的 逻 
辑 缺 陷 。 本 文采 用 文献 分 析 法 ， 通 过 对 Fisher 显著 性 检验 、N-P 式 假设 检验 和 
NHST 虚无 假设 检验 三 者 的 检验 步骤 进行 比较 , 详细 地 分 析 了 NHST 是 前 两 者 如 
何 杂 合 而 成 的 。 同 时 ， 通 过 具体 的 算 例 来 分 析 NHST 和 op 值 计算 的 逻辑 缺陷 。 
接着 ， 回 答 了 为 什么 NHST 和 op 值 虽 屡 受 批评 ， 却 仍 能 大 行 其 道 。 本 文 可 能 总 
贡献 不 在 于 创造 了 关于 假设 检验 的 更 多 新 知识 ,而 在 于 澄清 问题 ， 为 没有 在 统计 
学 深耕 的 经 验 研究 者 提供 通俗 的 解释 ， 使 他 们 更 容易 理解 NHST 和 p 值 计 算 的 
逻辑 缺陷 。 


2 NHST X Fisher 显著 性 检验 和 N-P 式 假设 检验 的 杂 合 体 


2.1 Fisher 显著 性 检验 

实际 上 ，NHST 是 Fisher 和 N-P 关于 假设 检验 思想 的 杂 合 体 ， 内 部 存在 着 
种 种 矛盾 > 1", Fisher 模式 下 的 p 值 是 在 某 个 假设 HO 为 真 ， 其 他 相关 假设 也 为 
真 的 前 提 下 ,试验 数据 出 现 当前 或 更 加 极端 值 的 概率 。p 值 小 于 给 定 的 某 个 值 ， 
仅仅 表明 这 个 假设 HO 是 错 的 , 或 者 小 概率 事件 发 生 了 "1, 但 是 通常 无 法 根据 一 
次 试验 ， 确 定 HO 被 拒绝 或 者 不 被 拒绝 。Fisher 认为 当 满 足下 述 条 件 时 才能 合理 
地 拒绝 假设 HO: 在 试验 设计 没有 重要 错误 的 前 提 下 ， 进 行 多 次 试验 ， 这 些 试验 
结果 中 ， 统 计 意 义 显著 的 结果 在 数量 上 具有 压倒 性 优势 22。 所 以 ， 一 次 试验 得 
出 了 统计 意义 显著 的 结果 , 仅仅 能 给 我 们 一 些 提 示 性 的 证 据 ， 说 明 试 验 结果 值得 


我 们 注意 ， 需 要 进行 更 深入 的 研究 。 如 果 要 验证 另外 一 个 假设 ， 则 需 设 计 另 外 一 
套 检验 程序 , 而 不 是 在 一 次 检验 中 拒绝 某 一 假设 、 同时 接受 另外 一 个 假设 , 因此 ， 
Fisher 认为 备 择 假设 的 引入 完全 是 没有 必要 的 3。 
Fisher 显著 性 检验 步骤 总 结 如 下 3 115, 

(1) 确定 统计 假设 Ho; 

(2) 选择 合适 的 检验 统计 量 T， 确 定 其 在 HO 为 真 的 前 提 下 的 分 布 ; 

G) 根据 当前 的 试验 数据 计算 检验 统计 量 T 的 数值 t; 

(4) 根据 T 了 的 分 布 ( 在 HO 为 真 的 前 提 下 的 分 布 ) ， 确 定 与 t 相 对 应 的 显 
著 性 水 平 p; 

C5) 如 果 获 得 的 p 小 于 预期 的 值 ， 则 要 么 HO 不 为 真 ， 要 么 小 概率 事件 发 
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图 1 Fisher 显著 性 检验 
2.2 Neyman-Pearson 式 假设 检验 

N-P 式 假设 检验 则 采用 虚无 假设 (null hypothesis? 对 备 择 假 设 〈alternative 
hypothesis) 的 形式 。 检 验 的 要 由 为 在 限制 第 一 类 错误 的 概率 不 超过 显著 性 水 平 a 
的 条 件 下 ， 谋 求 第 二 类 错误 的 概率 B 的 最 小 化 "55。N-P 式 的 假设 检验 思想 是 基于 
重复 抽样 的 前 提 得 出 的 , 并 不 能 保证 根据 某 一 个 样本 的 观测 结果 所 做 出 的 接受 或 
拒绝 的 决策 是 对 还 是 错 起 。 同 时 ， 在 N-P 的 思想 框架 中 ， 完 全 没有 提 到 p fü, 
他 们 使 用 拒绝 域 来 对 假设 进行 判断 。 

NP 式 假设 检验 缘起 于 工业 生产 中 质量 控制 的 需要 "7 。 例 如 : 一 个 生产 螺 
丝 帽 的 工厂 接 到 一 个 订单 ， 要 求生 产 的 螺丝 帽 直 径 为 2 c 0. 01cm。 此 时 ， 我 们 
就 会 很 清楚 , 要 想 检测 出 质量 有 问题 的 螺丝 帽 , 所 需 的 最 小 的 效果 量 (effect size) 
是 0.01cm。 我 们 也 很 容易 控制 样本 容量 ， 因 为 从 成 千 上 万 个 螺丝 帽 中 抽出 容量 
较 大 的 样本 并 不 难 。 一 方面 ， 如 果 工 三 无 法 有 效 检 测 出 直径 过 大 〈 > 2.001cmD 
BAL € € 1.999cmD 的 螺丝 帽 ， 也 就 是 犯 第 二 类 错误 的 概率 太 大 ， 可 能 会 导 
致 订单 被 取消 。 另 一 方面 ， 如 果实 际 上 符合 规定 直径 标准 〈2 + 0.0lcm) 的 螺 
丝 帽 ， 经 常 被 检测 为 不 合格 产品 ， 也 就 是 犯 第 一 类 错误 的 概率 太 大 ， 也 会 给 工厂 
带 来 不 少 的 损失 ， 导 致 生产 成 本 的 无 谓 增加 。 因 此 ， 在 这 种 情境 下 ， 我 们 可 以 把 
两 类 错误 的 减少 或 增 大 所 带 来 的 好 处 或 坏处 ， 通 过 适当 的 转换 ， 用 金钱 来 衡量 。 
这 也 就 意味 着 , 我 们 可 以 通过 数学 优化 的 方法 求 出 最 恰当 的 a 和 B 值 , 即 最 小 化 损 
失 或 最 大 化 收益 。 

但 是 在 大 多 数 实 际 研究 中 , 我 们 并 不 能 轻易 地 控制 样本 容量 、 也 不 容易 确定 
最 小 效果 量 以 及 合理 地 a 和 PB 值 。 例如 ， 当 我 们 要 检验 两 组 人 智商 是 否 有 明显 差异 
时 , 常常 并 不 清楚 所 需 的 最 小 效果 量 是 多 少 。 尽管 一 些 经 验 法 则 (rules of thumb) 
存在 :1820， 并 告诉 我 们 什么 是 大 效果 量 、 中 等 效果 量 和 小 效果 量 ， 但 是 判断 效果 
量 的 大 小 极其 依赖 所 研究 的 问题 。 例 如 研发 一 种 新 药 , 哪怕 提升 治愈 率 的 效果 量 
很 小 ， 也 是 可 以 接受 的 。 


Neyman- Pearson 的 假设 检验 步骤 总 结 如 下 105 21 22, 

(CD 确定 两 个 统计 假设 ": 虚无 假设 HM 与 备 择 假设 HA; 

(2) 选择 合适 的 检验 统计 量 T， 确 定 其 在 HM 为 真 的 前 提 下 的 分 布 ; 

(3) 指定 能 够 接受 的 犯 第 一 类 错误 的 最 大 概率 oa; 

(4) 根据 (D. QD. CD 和 指定 的 统计 功效 ”、 最 小 效果 量 等 ， 计 算 
最 小 的 样本 容量 ; 

(5) 根据 Neyman-Pearson 引 理 及 其 扩展 定理 ， 计 算 拒绝 域 C; 

(6) 根据 当前 的 试验 数据 计算 检验 统计 量 工 的 数值 t 

CI) 如 果 t 在 拒绝 域 C 中 ， 则 拒绝 虚无 假设 ， 接 受 备 择 假设 ， 否 则 接受 虚 
无 假设 。 
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2 Neyman-Pearson 式 假设 检验 

2.3 虚无 假设 检验 (NHST) 

虚无 假设 检验 是 Fisher 显著 性 检验 和 N-P 式 假设 检验 思想 的 杂 合 ， 其 典型 
的 检验 步骤 如 下 15 2 

(OD ”确定 两 个 统计 假设 ， 虚无 假设 HM 与 备 择 假 设 HA; 

(2) 选择 合适 的 检验 统计 量 T， 确 定 其 在 HM 为 真 的 前 提 下 的 分 布 ; 

G) 指定 能 够 接受 的 犯 第 一 类 错误 的 最 大 概率 oa; 

(4) 根据 当前 的 试验 数据 计算 检验 统计 量 工 的 数值 t; 

(5) 根据 T 的 分 布 ， 确 定 与 t 相 对 应 的 显著 性 水 平 p; 

(60 Zip € a， 拒绝 HA， 接受 HM; 若 p > a， 接 受 HA， 拒 绝 HM。 
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常 把 非 HM 视 为 HA， 以 致 HA 多 被 忽略 ， 
进而 导致 ESs power, BTE E 
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3 ”虚无 假设 检验 CNHST) 
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"这 里 的 假设 是 指 简单 假设 (simple hypothesis) 。 如 果 一 个 统计 假设 能 完全 确定 总 体 的 分 布 ， 则 称 此 
假设 为 简单 统计 假设 ; 否则 称 之 为 复合 统计 假设 (composite hypothesis) 。 在 虚无 假设 和 备 择 假设 都 是 简单 
假设 的 情况 下 , 利用 尼 曼 一 皮尔 森 引 理 (Neyman-Pearson lemma) 可 以 确定 最 大 功效 检验 (most powerful test) 
的 形式 。 一 般 来 讲 ， 检 验 Ho vs. Hi 的 最 大 功效 拒绝 域 (best critical region) 与 检验 Ho vs. Ho 的 最 大 功效 拒 
绝 域 不 一 定 相 同 。 所 以 当 备 择 假设 为 复合 统计 假设 的 情况 下 《例如 Ho: n=0vs.H: h>0) ， 如 何 确定 其 
最 大 功效 拒绝 域 , Neyman-Pearson 并 没有 完全 解决 这 个 问题 。 卡 林 一 鲁 宾 对 尼 曼 一 皮尔 森 引 理 进行 了 拓展 ， 
提出 了 卡 林 一 和 鲁 宾 定理 Karlin-Rubin theorem) ， 通 过 该 定理 ， 可 以 导出 某 些 复合 假设 检验 问题 的 一 致 最 
大 功效 检验 Cuniformly most powerful test) 。 

“ 备 择 假设 是 复合 假设 时 ， 统 计 功 效 的 计算 就 很 复杂 了 。 假 如 这 个 复合 假设 包含 如 下 简单 假设 : H, 
了 P，…，Hna，.… 那 么 对 于 其 中 每 一 个 简单 假设 都 会 有 一 个 统计 功效 ， 而 且 一 般 不 相同 ， 这 些 功效 可 能 是 : 1-B 

(Hila) ，1-B Hja) » .., 1-B (Hala〉，... 此 时 ， 对 于 这 个 备 择 假设 为 复合 假设 的 检验 来 说 ， 称 功效 函数 
(power function) 比 称 功效 (power) 更 合适 。 功 效 和 效果 量 都 可 以 事先 指定 一 个 标准 水 平 ， 然 后 根据 样本 
计算 实际 水 平 。 


NHST n AmI 的 检验 步骤 中 ， 步 又 (1) 、 (3)、 
(4) 与 N-P 式 假 设 检验 了 (1) 、 OQ. (3) 6) 相同 ， (4) 、 
(5) (3) (D 相同 ， 而 在 步骤 (6) a NHST 
不 存在 N-P 式 假设 检验 中 统计 功效 、 最 小 效果 量 及 拒绝 域 等 相关 信息 ， 错 误 地 
认为 Fisher 显著 性 检验 中 的 p 值 与 N-P 式 假设 检验 中 的 a 值 是 “等 价 的 ”, 无 论 
是 Fisher 还 是 Neyman-Pearson 都 不 会 认同 NHST 的 计算 过 程 。 直 观看 上 去 ,Fisher 
显著 性 检验 的 假设 HO 与 N-P 式 假设 检验 下 的 虚无 假设 Hw 没 有 区 别 ， 仅 仅 是 后 
者 多 了 一 个 备 择 假设 HA。 实 际 上 两 种 模式 有 很 大 不 同 。 我 们 只 要 把 N-P 式 假 设 
检验 下 的 统计 假设 改变 一 下 形式 就 很 容易 看 出 来 二 者 的 不 同 22。Hw: Mi- M= 
0 + MES (最 小 效果 量 ) ; Ha: Mi- M» x 0 + MES. Mi 是 由 Hw 确定 的 概 
Ag IT] Mo 是 由 HA 确定 的 概率 分 布 的 参数 。 如 果 研 究 设 计 中 没有 用 到 备 
择 假设 HA 提供 的 信息 〈 即 最 小 效果 量 和 犯 第 二 类 错误 的 概率 ) ， 那 么 N-P 式 的 
假设 检验 就 退化 到 Fisher 显著 性 检验 模式 。 和 常见 的 统计 软件 如 SPSS 是 以 Fisher 
的 统计 检验 思想 为 主 的 22， 这 就 意味 着 在 大 多 数 时候 ， 我 们 读 到 的 经 验 研究 论 
文中 所 使 用 的 都 是 Fisher 显著 性 检验 , 进一步 说 , 作为 假设 检验 中 备 择 假设 的 研 
究 假 设 基本 上 就 是 摆设 。 

综 上 ，NHST 分 别 利 用 了 Fisher EAM N-P 模式 中 对 我 们 有 吸引 力 的 地 方 ， 
而 忽视 了 这 两 种 模式 发 挥 作用 的 前 提 条 件 。 有 具体 而 言 ，NHST 仅仅 利用 了 Fisher 
模式 下 p 值 能 够 测量 试验 数据 对 某 个 假设 HO. 的 支持 程度 这 一 便利 之 处 和 N-P 模 
式 易 于 决策 的 优点 。 但 是 忽视 了 ， 如 果 要 做 出 有 效 的 决策 ， 在 N-P 式 假 设 检 验 
下 需要 考虑 更 多 的 信息 ， 如 B 值 、 功 效 值 、 最 小 效果 量 、 备 择 假设 HA 等 信息 ， 以 
至 于 在 实际 操作 中 误 认为 “ 非 Hv” 就 等 同 于 备 择 假设 HA 2426 。 


3 ”虚无 假设 检验 的 逻辑 缺陷 分 析 


3.1 经 常 忽略 备 择 假设 提供 的 信息 
社会 科学 的 方向 性 假设 没有 用 到 备 择 假设 提供 的 信息 ， 因 此 本 质 上 是 一 种 

Fisher 显著 性 检验 。 只 要 拒绝 了 虚无 假设 , 不 管 备 择 假设 是 什么 最 终 都 会 被 接受 。 

这 是 对 统计 的 极 大 地 误 用 。 被 记者 Geoffrey Wansell 称 为 “现代 英国 法 律 史上 最 
大 不 公 ” 的 Sally Clark 案 最 有 力 地 说 明了 这 一 点 。 一 个 名 叫 Sally Clark 的 妇女 
第 一 个 孩子 在 出 生 后 不 久 离奇 死亡 ， 医生 查 不 出 其 它 病因 , 结果 诊断 为 一 种 SIDS 
(婴儿 独 死 综合 症 ) 的 病因 。 不 幸 的 是 ，Sally Clark 的 第 二 个 孩子 在 出 生 后 不 久 
也 去 世 了 ， 和 警方 就 怀疑 是 Sally Clark 杀 死 了 自己 的 两 个 孩子 。 儿 科 专 家 Roy 
Meadow 用 统计 证 据 和 推理 说 服 了 陪审 团 , 结果 Sally Clark 以 谋杀 的 罪名 被 判处 
终身 监禁 。Roy Meadow 的 理由 是 ， 在 Clark 这 样 的 家 庭 中 ， 一 个 婴儿 患 SIDS 
的 概率 仅 为 1/8543 ， 两 个 婴儿 患 SIDS 的 概率 为 1/8543? ~ 1/73000000; 因此 
Clark 无 罪 的 概率 仅 为 1/73000000; 小 概率 事件 发 生 了 ,所 以 Clark A JË. H NHST 
的 语言 表达 : Ha: 两 个 婴儿 死 于 SIDS; Ha: Sally Clark 杀 死 了 两 个 婴儿 。 两 个 
婴儿 死 于 SIDS 的 概率 太 小 ， 于 是 拒绝 HM， 拒绝 了 虚无 假设 意味 着 接受 备 择 假 
设 HA， 因 此 Clark 有 罪 。 在 这 样 的 推理 中 ，HA 只 是 摆设 ， 完 全 没有 起 到 作用 。 
事实 上 ， 一 位 母亲 杀 死 亲生 婴儿 的 概率 比 SIDS 杀 死 娶 儿 的 概率 更 低 。 其 中 一 种 
说 法 是 母亲 杀 死 亲生 婴儿 的 概率 约 为 1/92000?", EF SIDS 的 概率 1/8543 
更 小 。 也 就 是 说 ， 在 上 述 例子 中 ， 如 果 只 能 在 HA 与 H 中 做 选择 的 话 ， 理 性 的 
选择 应 该 是 HA: 两 个 婴儿 死 于 SIDS. 


[ur 
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如 果 说 容易 致 人 忽略 备 择 假设 提供 的 信息 不 是 NHST 本 身 存在 的 问题 
么 混淆 p 值 与 o 值 的 含义 ，NHST 难 辞 其 个 28 。p 值 是 Fisher 提出 来 的 ， 是 在 某 
个 假设 H 为 真 ， 其 他 相关 假定 也 为 真 的 前 提 下 ， 试 验 数 据 出 现 当前 值 或 更 加 极 
端 值 D RRT, WA pr (DIH) 。p 值 是 当前 试验 数据 的 性 质 ， 测 量 的 是 当 
前 数据 及 更 加 极端 的 数据 反对 假设 H 的 程度 。 每 一 次 试验 都 有 一 个 p 值 ， 也 就 
是 说 ，p 值 是 一 个 随机 变量 ， 进 行 一 次 试验 就 会 计算 一 个 p 值 。a 值 是 
Neyman-Pearson 提出 来 的 ,其 表达 的 含义 是 在 虚无 假设 H 正确 的 前 提 下 ,进行 
了 NN 次 (足够 多 ) 试验 , 其 中 Hu 被 拒绝 的 次 数 不 超 过 NXa 次 。a 值 是 检验 Ctest) 
的 性 质 ， 并 非 试 验 数据 的 性 质 。p 值 和 a 的 区 别 主要 在 于 C) p 值 是 一 次 试验 
的 结果 ; a 是 N 次 试验 的 结果 ; G) p 值 是 数据 的 性 质 ，a 是 检验 的 性 质 ;，(2) 
p ARBRE Ca 0.05、0. 001 等 ) 可 以 在 试验 前 确定 ， 也 可 以 在 试验 后 确定 ; a 
的 阔 值 必须 在 试验 前 确定 ， 因 为 N-P 式 假设 检验 下 拒绝 域 的 计算 需要 用 到 a 值 ; 
a a a S NTIE 
它 只 能 做 三 分 决策 ， 要 么 文 持 ， 要 么 拒绝 ， 或 有 竺 进一步 考察 。 
混淆 p 与 的 含义 是 NHST 逻辑 混乱 的 根源 。 
次 试验 就 会 计算 一 个 p fü. p 值 小 于 0. 05 还 是 0. 001 在 试验 前 决定 或 在 试验 后 
决定 没有 区 别 ， 但 是 a 不 同 ， 它 是 人 为 地 预先 确定 的 一 个 值 ， 试 验 者 正 是 根据 这 
个 值 和 其 它 设 定 的 值 , 来 设计 试验 的 , 设计 试验 的 时 候 不 管 某 一 次 试验 是 否 结果 
显著 ,但 是 能 保证 长 期 来 看 犯 第 一 类 错误 的 概率 一 定 小 于 a。 用 一 个 具体 例子 来 
说 明 : WE Fisher 模式 下 的 p 值 为 0.05， 设 定 N-P 模式 下 a 闵 值 也 为 0.05。 然 
后 进行 10000 次 试验 (假设 已 经 足够 多 ) ， 在 Fisher 模式 下 p 值 小 于 0.05 的 试 
验 次 数 并 不 确定 ， 可 能 是 20、50、100、500 次 等 ; 但 是 在 N-P 模式 下 犯 第 一 类 
普 误 的 决策 次 数 〈 根 据 概 率 理论 ) 不 会 超过 25 次 (假设 10000 次 试验 中 Hu 有 
5000 次 为 真 ) 。 
3.3 得 不 到 我 们 想 要 的 结果 

我 们 最 想得到 这 样 的 结果 : 仅 根 据 一 次 试验 的 结果 就 能 确定 ， 当 试验 结果 显 
著 时 ， 原 假设 Ho 或 备 择 假设 Ha 为 真 的 概率 。 但 在 实际 计算 过 程 中 ， 我 们 往往 得 
不 到 这 种 想 要 的 结果 。Fisher 假设 检验 中 最 吸引 我 们 的 是 p 值 ， TE NHST 虚无 检 
验 模式 中 等 同 于 a 值 ,我们 通常 错误 地 认为 a 是 : 如 果 一 次 试验 结果 显著 ， 我 们 拒 
绝 虚 无 假设 所 犯 的 概率 。 例 如 ， 假 设 一 次 研究 结果 得 到 p《 a = 0.05， 它 常 被 
解释 为 ， 如 果 拒 绝 了 虚无 假设 ， 那 么 在 100 次 试验 中 , 我 们 错误 的 次 数 不 会 超过 
5 次 。 这 是 我 们 十 分 渴望 的 结果 ， 但是， 事情 远 没有 这 么 简单 。 做 这 样 的 判断 得 
有 个 前 提 ， 那 就 是 假设 检验 的 虚无 假设 本 身 是 真 的 。 如 果 这 个 前 提 不 成 立 ， 上 述 
理解 就 不 成 立 。 如 图 4 所 示 ， 虽 然 a = 0.05，125 个 显著 结果 中 可 能 36% 都 是 错 
误 的 ， 远 大 于 我 们 认为 的 5% 的 显著 结果 是 错误 的 。 实 际 研究 中 ， 虚 无 假设 中 真 : 
假 为 9:1 是 很 正常 的 7。 


20 个 结果 不 显著 


假定 B= .20 


100 个 假 HO 
1-B= .80 
假定 10% 为 仿 
80 个 结果 显著 
1000 个 虚无 假设 80/(80+45) = 64% 
457-8 R Sé 
假定 90% 为 真 假定 a= .05 
1-o= .95 
855 个 结果 不 显著 


图 4 例 释 a 的 含义 

还 需要 注意 的 是 a、B 都 是 长 期 试验 条 件 下 的 概率 , 并 不 是 一 次 试验 条 件 下 玖 
能 够 得 到 的 。 什么 叫 长 期 试验 ? 在 满足 概率 公理 化 定义 的 前 提 下 ,频率 学 派对 概 
率 值 的 确定 方法 为 292: 在 N 次 重复 试验 中 ， 事 件 A 发 生 Kn 次 ， 则 事件 ARE 
的 频率 为 PN CA) = Ku / N = 事件 A 发 生 的 次 数 / 重 复试 验 次 数 。 长 期 试验 与 
NN 的 大 小 有 关 ， 随 着 重复 次 数 N 的 增加 ， 频 率 会 稳定 在 某 一 常数 附近 。 这 个 常 
数 已 经 与 N 无 关 , 它 就 是 事件 A 发 生 的 概率 P CA) 。Fisher 和 Neyman, Pearson 
都 是 频率 学 派 的 主要 代表 人 物 。Neyman 和 Pearson 关于 假设 检验 的 理论 是 建立 
在 概率 的 频率 解释 基础 上 的 30。 但 是 在 现实 世界 里 ， 我 们 无 法 把 一 个 试验 无 限 
次 地 重复 下 去 ， 因 此 要 获得 P CAO 是 很 难 的 。 我 们 有 可 能 做 到 的 常常 是 重复 试 


验 足 够 多 次 ， 用 PN CA) 去 近似 地 代 蔡 概率 P (A) 。 
表 1 虚无 假设 检验 (NHST) 涉及 的 核心 概念 
概念 的 组 合 条 件 
pa l-a | FRP | p | power | TRP | W1]| W2 
一 次 试验 4 UE 
长 期 试验 V V ~ ~ ~ ~ 
pr( 试 验 结果 或 更 极端 | Ho 为 真 ) ~ 
pr (试验 结果 显著 | Ho 为 真 ) J| 
pr (试验 结果 不 显著 | Ho 为 真 ) J 
pr ONR REE |H 为 真 ) 4 
pr (试验 结果 不 显著 | HI 为 真 ) J| 
pr (Ho 为 真 | 试验 结果 显著 ) 4 J 
pr H 为 真 | 试验 结果 显著 ) 4 ~ 
注 : 背景 为 灰色 的 概念 Wi、W: 是 我 们 最 想 要 的 ， 例 如 Wi 指 的 是 根据 一 次 试验 我 们 想 知道 pr(Ho 为 
| 试验 结果 显著 )， 可 惜 NHST 无 法 给 我 们 这 样 的 结果 。 但 是 现实 中 , 我 们 发 表 的 论文 绝 大 多 数 都 统计 意义 显 
著 〈 和 否则 评审 通 不 过 ) ， 统 计 意 义 不 显著 的 结果 很 少 。 因 此 ， 我 们 也 不 知道 到 底 有 多 少 躺 在 抽 屈 里 的 统计 


意义 不 显著 的 研究 结果 。 更 为 糟糕 的 是 ,在 论文 GDP 的 大 环境 下 ， 有 些 研究 者 不 希望 辛 辛 苦 苗 做 的 结果 髓 
在 那里 浪费 了 ， 转 而 采取 一 些 有 问题 的 行为 使 得 研究 结果 显著 。 


4 Pp 值 计 算 的 逻辑 缺陷 分 析 


4.1 p 值 是 如 何 计算 的 

那 是 20 世纪 20 年 代 后 期 , 在 英国 剑桥 一 个 夏 日 的 午后 , 一 群 大 学 的 绅士 和 
他 们 的 夫人 们 ， 还 有 来 访 者 ， 正 围 坐 在 户外 的 桌 劳 ， 享 用 着 下 午 茶 ， 在 品 茶 过 程 
中 ， 一 位 女士 坚 称 把 茶 加 进 奶 里 ， 把 奶 加 进 茶 里 ， 这 两 种 不 同 的 做 法 ， 会 使 茶 的 
味道 品 起 来 不 同 。 这 位 女士 的 观点 ， 激 起 了 大 家 的 兴趣 ， 有 人 说 让 我 们 来 检验 这 
个 命题 吧 。Fisher 在 The Design of Experiments 的 第 二 章 详 细 地 介绍 了 如 何 设计 
各 种 不 同 的 方案 来 检验 这 个 女士 的 命题 2 。 但 是 Fisher 的 介绍 方式 太 过 复杂 ， 
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这 里 我 们 使 用 经 Lindley 改进 过 的 、 又 不 失 Fisher 思想 精髓 的 方案 * 来 介绍 p 值 
到 底 是 如 何 计 算 的 ? 

改进 后 的 试验 设计 为 , 每 次 呈现 给 女士 两 杯 茶 ， 并 告诉 她 ， 其 中 一 杯 是 先 加 
奶 后 加 茶 的 另外 一 杯 是 先 加 茶 后 加 奶 的 ， 需 要 这 位 女士 指出 , 到 底 哪 一 杯 是 先 加 
茶 ， 哪 一 杯 是 先 加 奶 ? 如 果 女 士 的 判断 是 正确 的 ， 记 作 及 ， 和 否则 ， 记 作 W。 现 
在 该 试验 重复 了 六 次 ， 假 设 试验 结果 为 ，RRRRRW， 只 有 最 后 一 次 判断 是 错误 
的 ， 那 么 Fisher 的 分 析 如 下 。 

首先 , 假设 这 位 女士 根本 就 不 能 区 别 哪 杯 茶 是 先 加 奶 后 加 茶 , 哪 杯 茶 是 先 加 
茶 后 加 奶 的 〈 原 假设 ) 。 这 也 就 意味 着 ， 女 士 的 每 一 次 判断 都 是 随机 的 ， 每 次 判 
断 正 确 的 结果 和 错误 的 结果 概率 均 为 1/2， 并 且 每 次 试验 与 其 余 试验 是 相互 独立 
的 。 那 么 观察 到 的 试验 结果 ，RRRRRW 的 概率 就 为 1/25 = 1/64. Fisher 就 做 出 
判断 : 要 么 原 假设 是 正确 的 ， 一 个 小 概率 事件 发 生 了 ; 要 么 原 假设 是 错误 的 ， 也 
就 是 说 ， 这 位 女士 有 能 力 区 别 哪 杯 茶 是 先 加 奶 或 者 后 加 奶 的 。 

试验 的 结果 为 1/64， 属 于 小 概率 事件 。 那 么 按照 Fisher 的 分 析 ， 我 们 可 能 
会 倾向 于 认为 原 假设 是 错误 的 。Fisher 马上 意识 到 了 这 样 的 分 析 是 错误 的 ， 因 为 
这 样 的 试验 安排 ， 也 就 是 6 次 的 重复 试验 ， 任 何 一 种 可 能 结果 的 概率 都 是 1/64, 
所 以 由 此 而 确定 某 个 假设 的 对 错 明 显 是 充 雇 的 。 

为 了 避免 这 种 荒 廖 ，Fisher 声称 只 要 试验 结果 为 5 个 正确 ，1 个 错误 不 管 
这 一 个 错误 是 在 哪 一 次 品 茶 的 结果 〉 都 有 同等 的 证 据 力 度 ，W 可 能 出 现在 6 个 
位 置 上 的 任意 一 个 ， 那 么 概率 就 为 6/26= 6/64 = 0.094, Æ 5% 的 显著 性 水 平 上 ， 
并 不 显著 。 于 是 避免 了 任何 观察 到 的 试验 结果 都 显著 这 样 的 荒 雇 结果 。 

但 是 ，Fisher 马上 意识 到 了 ， 这 仍然 不 能 解决 问题 。 例 如 ， 让 该 女士 做 300 


次 判断 ， 其 中 150 次 正确 ，150 次 错误 的 概率 为 : CI90 X (1/2300) = 0.046. 


这 是 连续 做 300 次 判断 ， 最 有 可 能 发 生 的 结果 ， 其 他 任何 一 种 结果 的 概率 都 比 
0. 046 小 。 于 是 同样 的 问题 又 出 现 了 , 任何 一 种 结果 都 在 5% 的 显著 性 水 平 上 显著 ， 
这 仍然 是 不 合理 的 。 怎 么 解决 这 个 问题 呢 ? 我 们 暂时 回 到 6 次 重复 试验 的 结果 ， 
RRRRRW 。 天 才 的 Fisher 想到 如 果 5 次 正确 1 次 错误 ， 能 够 拒绝 原 假设 的 话 ， 
那么 6 次 全 对 ， 肯 定 更 能 拒绝 原 假设 ， 因 此 也 要 把 6 次 全 对 的 概率 也 加 进去 ， 
0. 094+1/64 =0. 109。 同 样 的 道理 用 在 300 次 的 重复 试验 中 ， 判 断 正确 次 数 超过 
150 次 的 那些 试验 结果 的 概率 也 应 加 入 进来 。 于 是 p 值 应 为 : 


(C150. Ct51+...+ C300) x (1/2300) = 0. 523. 


Sa 


300 “300 300 
总 结 一 下 ，p 值 其 实 是 由 三 部 分 概率 构成 的 : G) 当前 试验 结果 的 概率 ; 

(2) 与 当前 试验 结果 同等 极端 的 那些 可 能 的 试验 结果 的 概率 ，〈3) 比 当前 试验 

结果 更 极端 的 那些 可 能 的 试验 结果 的 概率 。 图 5 以 女士 品 杂 试验 为 例 ， 展 示 了 p 

值 是 如 何 计 算 的 。 

0.109 = 1/64 * 5/64 F 1/64 


1 1 1 
RRRRWR, RRRWRR, RRWRRR, 
RRRRRW RWRRRR, WRRRRR RRRRRR 


1 1 1 


p 值 = 当前 试验 结 与 当前 试验 结果 同等 极端 的 那些 可 能 的 比 当前 试验 结果 更 极端 的 那些 可 能 
果 概 率 试验 结果 的 概率 的 试验 结果 的 概率 


观察 到 的 未 观察 到 的 未 观察 到 的 


图 5 p 值 的 计算 方法 


4.2 了 p 值 计算 的 逻辑 缺陷 

p 值 到 底 是 哪个 事件 的 概率 呢 ? 实际 上 它 不 是 一 个 事件 ， 而 是 多 个 事件 的 概 
率 之 和 。 它 涉及 到 当前 的 试验 数据 加 上 与 当前 数据 同等 极端 和 比 当前 数据 更 为 极 
端的 数据 30。 由 图 5 我 们 可 以 看 出 , p 值 由 观察 到 部 分 的 概率 和 未 观察 到 部 分 的 
概率 加 总 而 成 。p 值 的 逻辑 问题 主要 就 出 现在 未 观察 到 的 部 分 的 概率 怎么 计算 * 
32 34. 如何 定 义 与 当前 试验 结果 同等 极端 的 那些 可 能 的 试验 结果 ?如 何 定 义 比 当 
前 试验 结果 更 极端 的 那些 可 能 的 试验 结果 ? p 值 的 逻辑 困境 就 在 于 此 。 同 样 以 女 
士 品 茶 这 个 例子 进行 说 明 ,， 这 里 假设 我 们 有 两 种 试验 方案 ， 第 一 种 ,我 们 前 文 已 
经 介绍 过 了 ， 那 就 是 让 该 女士 做 6 次 判断 ， 每 6 次 判断 的 结果 记录 下 来 ， 记 为 一 
次 试验 结果 ; 第 二 种 试验 方案 为 : 连续 不 断 地 让 该 女士 做 判断 ， 直 到 第 一 次 错误 
判断 出 现 ， 记 录 下 来 这 些 判断 的 结果 就 是 一 次 试验 结果 。 

假设 我 们 现在 得 到 的 试验 结果 为 RRRRRW， 接 下 来 我 们 来 计算 p 值 。 在 第 
一 种 试验 方案 的 框架 下 ， 前 文 我 们 已 经 分 析 过 了 ，p 值 等 于 0. 109， 在 5% 的 显著 
性 水 平 下 ， 原 假设 是 不 能 被 拒绝 的 。 第 二 种 试验 方案 的 框架 下 p 值 为 多 少 呢 ? 我 
们 按照 同样 的 思路 进行 计算 : (1) 当前 试验 结果 的 概率 为 1/64; (2) 与 当前 
试验 结果 同等 极端 的 试验 结果 的 概率 为 0; G) 比 当前 试验 结果 更 极端 的 试验 
结果 为 RRRRRRW、RRRRRRRW …, 因此 它们 概率 和 为 1/278 +1/2™=(1/2”) 
+ (1-1/2 = 1/64。 那 么 第 二 种 试验 方案 框架 下 的 p 值 为 : 1/64 + 0 + 1/64 
= 0.031。 在 5% 的 显著 性 水 平 下 ， 原 假设 是 要 被 拒绝 的 。 这 样 矛盾 就 出 现 了 ， 我 
们 告诉 了 这 位 女士 同样 的 信息 (试验 方案 是 我 们 头脑 当中 设想 的 ， 并 没有 告诉 这 
位 女士 ) ， 这 位 女士 诚实 地 进行 了 判断 ， 相 同 的 试验 结果 RRRRRW) 得 到 的 
推论 却 是 矛盾 的 ， 这 显然 是 不 够 合理 的 。 

p 值 的 另外 一 个 逻辑 问题 是 ， 相 同 的 p 值 是 否 意味 着 相同 的 证 据 力 度 ? 假设 
有 相同 的 原 假设 , 试验 一 的 样本 容量 为 20， 得 到 的 p 值 为 0.042， 试 验 二 的 样本 
容量 为 100， 得 到 的 p 值 也 为 0.042， 那 么 试验 一 的 结果 与 试验 二 的 结果 是 否 有 
相同 的 证 据 力度 呢 ? 如 果 证 据 力度 不 同 , 哪 一 个 试验 结果 反对 原 假设 的 力度 更 强 
UE? 学 术 界 存在 着 极 大 的 争议 。 一 些 学 者 认为 ， 试 验 一 的 证 据 力 度 更 强 3537， 另 
外 一 些 学 者 则 认为 试验 二 的 证 据 力度 更 强 383， 还 有 一 些 学 者 则 认为 ， 试 验 一 与 
试验 二 的 证 据 力度 相同 , 特别 是 Fisher 本 人 就 持 这 种 观点 : 只 要 计算 的 方法 正确 ， 
相同 的 p 值 就 有 相同 的 证 据 力 度 39 。 


5 为 什么 虚无 假设 检验 和 p 值 仍 能 大 行 其 道 


NHST 和 p 值 虽 然 受 到 众多 学 者 质疑 和 批判 , 但 仍 被 广泛 推 尝 的 原因 可 归结 
为 以 下 几 点 : 
实用 性 : Fisher 作为 一 名 有 着 丰富 工作 经 验 的 应 用 统计 工作 者 ， 深 知 统计 工 
具 的 使 用 应 该 着 重 其 在 工作 中 的 实用 性 ， 而 Neyman 和 Pearson 作为 纯 数理 工作 
者 ,对 于 统计 工具 追求 数学 上 的 精确 和 完美 , 这 也 导致 了 两 者 之 间 出 现 严重 的 分 
歧 。 而 作为 二 者 杂 合 体 的 NHST 吸收 了 Fisher 模式 中 p 值 测量 试验 数据 对 某 个 
假设 H 的 支持 程度 和 N-P 式 在 决策 上 的 便利 性 和。Yes or No 的 决策 是 我 们 在 
科学 研究 和 日 常生 活 中 回避 不 了 的 事实 ， 科 研 人 员 对 没有 根据 的 Yes or No 决策 
(特别 是 没有 数字 作为 支撑 的 决策 ) 抱 有 强烈 的 戒心 ， 而 NHST A81 p 值 极 大 地 
满足 了 人 们 的 这 种 心理 需求 ， 因 此 它们 有 肥沃 的 生存 土壤 。 


9 


期 刊 导 向 : 社会 科学 领域 内 顶尖 期 刊 在 论文 发 表 上 的 榜样 效应 为 p 值 的 广泛 
使 用 推波助澜 ?。 进 而 演化 为 一 种 标准 化 的 实证 研究 程序 和 方法 论 要 求 ， 即 凡是 
统计 推论 均 须 进行 假设 检验 ， 而 进行 假设 检验 就 要 报告 p 值 ， 这 种 要 求 又 通过 各 
学 科 内 的 统计 教材 反复 示范 ， 最 终 在 整个 学 科 领 域 全 面 制度 化 5 。 

科学 性 焦虑 : 根据 吕 小 康 (2014) 4 的 观点 ，“ 社 会 科学 中 无 论 是 哪 门 学 科 ， 
都 存在 不 同 程度 的 这 种 压力 ，…… 它们 对 外 仍 需 不 断 “ 证 明 ” 自 己 是 一 门 科 学 事 
业 ， 对 内 还 需 整 合 学 科 体系 和 发 展 导向 。 解 决 这 些 压 力 的 方式 之 一 ， 就 是 建立 
个 整合 的 分 析 框 架 ， 确 定 整 个 学 科 的 基本 理论 范式 ， 同 时 引入 一 系列 的 数学 工 
具 ”， 而 NHST 和 op 值 就 在 一 定 程度 上 担当 了 这 样 的 角色 。 


6 研究 结论 


本 文 在 吕 小 康 (2014) “、 孝 丽 等 (2016) "的 研究 基础 上 ， 提 出 三 个 研究 
问题 : G) 虚无 假设 检验 (NHST) 的 逻辑 缺陷 在 哪里 ? (2) p 值 计算 的 逻辑 
缺陷 在 哪里 ? G) 为 何 二 者 有 逻辑 缺陷 却 仍 能 大 行 其 道 ? 

对 于 研究 问题 G), KLUX NHST 的 逻辑 缺陷 关键 在 于 混淆 p 值 与 a 的 
含义 ， 进 而 忽略 备 择 假设 提供 的 信息 ， 导 致 无 法 获得 我 们 想 要 的 试验 结果 ; 对 于 
研究 问题 (2) ， 本 文 认 为 p 值 计 算 的 逻辑 缺陷 之 处 在 于 : 中 根据 相同 的 试验 结 
果 ， 如 果 设 想 不 同 的 试验 方案 ， 计 算 所 得 的 p 值 也 可 能 不 同 ，@ 在 解读 p 值 时 ， 
相同 的 p 值 是 否 意味 着 相同 的 证 据 力 度 ， 也 没有 定论 ， 对 于 研究 问题 (3) 的 回 
答 是 : @ 它 极 大 地 降低 了 研究 者 对 于 不 确定 和 没有 数据 的 决策 的 戒备 心 ; OMR 
期 刊 在 论文 发 表 上 的 榜样 效应 为 NHST 和 p 值 的 广泛 使 用 推波助澜 ;图 社会 科 
学 里 的 各 个 专业 需 向 外 界 证 明 自 己 是 一 门 科学 事业 , 因此 就 需要 建立 一 个 整合 的 
分 析 框 架 ， 而 NHST 和 p 值 正 好 满足 了 这 一 需求 。 

本 文 并 不 否认 NHST M p 值 在 心理 学 、 社 会 学 等 学 科 中 的 作用 ， 这 一 点 与 
吕 小 康 (2014) ^. ŽAN (2017) 1 等 人 在 其 论文 中 的 观点 一 致 。 虽 然 NHST 
和 op 值 屡 受 批评 , 但 它 仍然 是 学 者 进行 经 验 研究 的 首选 , 更 多 地 是 因为 研究 者 对 
研究 工具 使 用 的 惯性 ， 而 改变 这 种 惯性 需要 足够 长 的 时 间 "3。 但 是 需要 我 们 清 
星 认识 到 的 是 ， 无 论 是 Fisher 显著 性 检验 还 是 N-P 式 假 设 检 验 ， 都 需要 长 期 试 
验 才能 得 出 结论 。 我 们 往往 缺乏 这 样 的 耐心 , 总 希望 能 够 在 一 项 研究 中 得 到 一 个 
明确 的 结论 。 在 这 一 目的 上 ，NHST 和 p 值 肯 定 让 我 们 失望 。 但 若 因此 而 完全 禁 
用 它们 也 没有 必要 ， 真 正 地 了 解 NHST 和 p 值 计 算 的 逻辑 缺陷 之 后 ， 审 慎 地 
使 用 它们 ， 才 是 较为 合理 的 取向 。 


m-;i 


“例如 ，1991 年 《美国 社会 学 评论 》 制 订 的 一 项 新 的 发 表 要 求 明确 规定 禁止 使 用 0.05 以 上 的 显著 性 水 
平 ， 且 必须 使 用 “*”、“**”、“**#*” 分 别 表示 p<0.05、p<0.01、p< 0.001. 
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